Entrega Final - Series Cronológicas

Facultad de Ciencias Económicas y Administración - 2025 - UDeLaR

Author

Leandro Berrueta, Lucca Frachelle, Cecilia Waksman

Published

June 22, 2025

1 Resumen Ejecutivo

2 Introducción

El presente trabajo se desarrollará en base a la serie mensual de la cantidad de clientes con deuda vigente en el Banco Santander durante el período de Diciembre 2018 a Marzo 2025. La serie proviene de la central de riesgos que se informa al BCU. La serie se encuentra constituida, entonces, por 76 observaciones.

Dada la baja cantidad de observaciones disponibles se utilizará, a los efectos de identificar el modelo que logre representar el comportamiento de la serie, los datos de hasta Diciembre del 2024 inclusive (73 observaciones en total). Las tres observaciones restantes, referidas al año corriente, serán utilizadas a efectos de contrastar el desempeño de la predicción.

3 Análisis Inicial

3.1 Gráfico de la Serie Temporal

Una primera visualización de la serie permite identificar una clara tendencia creciente a lo largo del tiempo, especialmente a partir de mediados del año 2020, con un aumento significativo a fines de 2023 de cara al año 2024.

En principio no se logra reconocer un comportamiento estacional evidente o un patrón repetitivo a intervalos fijos en la serie.

A su vez, una inspección inicial de la serie sugiere que la misma podría presentar observaciones atípicas, en particular a fines de 2019, fines de 2021 y fines de 2023.

La variabilidad parece aumentar ligeramente con el nivel de la serie, lo que podría sugerir la necesidad de aplicar una transformación logarítmica a modo de homogeneizar la Varianza de la serie. El uso de dicha transformación se evaluará más adelante tomando como insumo el comportamiento del cuadrado de los residuos de los modelos propuestos.

3.2 Estadísticas Descriptivas

Estadísticas Descriptivas de la Serie de Cantidad de Personas con Deuda
Estadística Valor
Min. 332198
1st Qu. 353361
Median 394463
Mean 395286
3rd Qu. 432958
Max. 495587

4 Identificación del Modelo

4.1 Análisis de la Serie Original en el Dominio del Tiempo

4.1.1 Análisis en el Dominio del Tiempo: Función de Autocorrelación (FAC)

Se observa que la Función de Aucorrelación (FAC) decrece lentamente y de forma persistente, con coeficientes de autocorrelación significativos que se mantienen altos incluso en los mayores rezagos y que, por ende, no se comportan de acuerdo al decaimiento exponencial que caracteriza a las series débilmente estacionarias1. Esto es un fuerte indicio de que la serie no es estacionaria.

Además, las autocorrelaciones significativas en rezagos altos sugieren la presencia de una tendencia, detalle claramente observable al inspeccionar el gráfico de la serie.

4.1.2 Análisis en el Dominio del Tiempo: Función de Autocorrelación Parcial (FACP)

La Función de Autocorrelación Parcial (FACP) muestra un coeficiente significativo en el primer rezago y luego decae rápidamente, no habiendo otro rezago que resulte significativo al nivel de significación usual del 5%.

Esto podría sugerir un componente \(\text{AR}(1)\) si la serie fuese estacionaria. Sin embargo, dada la FAC planteada anteriormente así como los comentarios realizados en base a esta y al gráfico de la propia serie, se concluye de este primer análisis del Dominio del Tiempo en la posibilidad de aplicar, al menos, una primera diferencia regular a la misma.

4.1.3 Análisis en el Dominio de Frecuencias de la Serie Original

Mediante el Periodograma Suavizado de la serie es posible respaldar la idea de que la misma presenta una tendencia que debería ser modelada.

En particular, las frecuencias más próximas a \(0\), y por ende las asociadas a ciclos de período próximo a infinito (el componente tendencial) explican la mayor parte de la variabilidad de la serie2.

4.1.4 Contrastes de Raíces Unitarias

A la hora de determinar si la tendencia puede ser modelada de forma determinística o si la misma es resultado de la presencia de raíces unitarias que motiven la aplicación de una Primera Diferencia Regular se lleva acabo los Contrastes de Dickey-Fuller Aumentado (DF o DFA) y Kwiatkowski-Phillips-Schmidt-Shin (KPSS).

4.1.4.1 Dickey-Fuller Aumentado

En primera instancia se planteó el contraste seleccionando la cantidad de rezagos por medio de Criterios de Información (AIC y BIC) lo que resulta en la elección de \(p = 1\). Con este valor, sin embargo, no se logró el comportamiento deseado de los residuos (que los mismos no se encuentren autocorrelacionados), lo que motivó el ensayo con varios valores de lags adicionales. Esto resultó en la elección de \(p = 2\), con ambos coeficientes significativos a los niveles de significación usuales.

A continuación se presentan los resultados de la regresión auxiliar del test y los estadísticos de prueba:

Regresión del Test de Dickey-Fuller Aumentado
Characteristic Beta 95% CI p-value
(Intercept) 22,500 -25,491, 70,490 0.4
z.lag.1 -0.07 -0.22, 0.09 0.4
tt 212 -111, 534 0.2
z.diff.lag


    z.diff.lag1 -0.48 -0.72, -0.23 <0.001
    z.diff.lag2 -0.43 -0.66, -0.20 <0.001
Abbreviation: CI = Confidence Interval
Resultados del Test de Dickey-Fuller Aumentado
Estadístico VC.1. VC.5. VC.10.
tau3 (con tendencia) -0.8745181 -4.04 -3.45 -3.15
phi2 9.9484835 6.50 4.88 4.16
phi3 2.3435201 8.73 6.49 5.47

Del contraste de Dickey-Fuller aumentado se concluye que:

  • No se rechaza la Hipótesis Nula de que la Serie presente una raíz unitaria a ninguno de los niveles de significación planteados. De esta manera se tiene un respaldo estadístico para aplicar la Primera Diferencia Regular.

4.1.5 KPSS

En segunda instancia se plantea el Contraste KPSS. Los resultados se muestran a continuación:

Resultados del Test KPSS (con tendencia)
Item Valor
Estadístico de Test 0.2567046
Valor Crítico 10% 0.1190000
Valor Crítico 5% 0.1460000
Valor Crítico 2.5% 0.1760000
Valor Crítico 1% 0.2160000

Como resultado se rechaza la Hipótesis Nula de que la Serie sea Integrada de Orden \(0\), lo que nuevamente da un respaldo estadístico para la aplicación de la Primera Diferencia Regular en los datos.

4.2 Serie Diferenciada de acuerdo a la Primera Diferencia Regular

La Primera Diferencia Regular tiene como resultado una serie que adquiere un comportamiento más próximo al estacionario que la serie original.

En principio es posible observar que la tendencia ha sido eliminada y la Media parece ser constante. No obstante, la Varianza no se comporta de igual forma, lo que sugiere, nuevamente, la posible presencia de datos atípicos, particularmente a fines de los años 2019, 2021 y 2023.

Considerando los años por separado, como se plantea en el gráfico siguiente, es posible observar que la serie diferenciada se comporta de forma similar en todos los años disponibles, con la excepción de los años 2019 y 2024, en los meses de Septiembre y Octubre en particular. Esto es un indicio de posibles outliers que requieran intervención.

Separando los datos de acuerdo a los meses se desprende que los meses de Marzo, Junio, Septiembre y Diciembre presentan medias mayores en comparación al resto de los meses.

4.2.1 FAC y FACP de la Serie Diferenciada

Al analizar la Función de Autocorrelación de la serie una vez aplicada la Primera Diferencia Regular (\(d=1\)), se observa que el lento decaimiento de los coeficientes de autocorrelación fue subsanado. No obstante, persisten patrones significativos.

Específicamente, se nota la presencia de coeficientes significativos en los rezagos \(3, \ 6, \ 9\), con una rápida aproximación a las bandas de confianza.

Los coeficientes asociados a los rezagos \(12\) y \(24\) también resultan significativos, lo que constituye un indicio de que la serie presente un componente estacional de frecuencia anual (período \(12\)).

De esta manera se puede destacar que las observaciones se encuentran autocorrelacionadas con sus valores de 3, 6 y 9 meses atrás. Este comportamiento sugiere la utilización, en principio, de un \(\text{SARIMA}(3,1,0)(P,D,Q)\), bajo el argumento de que la FAC se comporta como la que presenta un \(\text{AR}(3)\) con \(\phi_1 = \phi_2 = 0\).

Otra posible interpretación es reconocer la significación de los primeros dos coeficientes, tanto de autocorrelación como de autocorrelación parcial, como el reflejo de un comportamiento similar a un \(\text{AR}(2)\) en la parte no estacionaria, reflejando la estacionalidad de acuerdo a 3 períodos, evidenciada a través de la significación de los coeficientes en los rezagos \(3, \ 6, \ 9\) y \(12\).

4.2.2 Dominio de Frecuencias: Análisis del Espectro de la Serie Diferenciada

El Espectro también muestra como la Primera Diferencia Regular elimina el componente tendencial, al presentar bajos valores en las frecuencias más bajas. No obstante, es posible observar como se realza el peso de las frecuencias que se encuentran en torno a \(\omega_{\max} = 2.10\).

Considerando que \(\text{per}(\omega_j) = \frac{2\pi}{\omega_j}\), entonces se tiene que \(\text{per}(\omega_{\max}) \approx 3\), lo que quiere decir que la aplicación de la Primera diferencia Regular tuvo como resultado el incrementar la importancia de los ciclos que se repiten cada 3 meses a la hora de explicar la variabilidad de la serie.

Esto constituye un fundamento para la utilización de \(p=3\) en la modelización de la serie diferenciada o de la aplicación de una Primera Diferencia Estacional de período 3, como se había mencionado en el Análisis en el Dominio del Tiempo efectuado anteriormente.

PREGUNTA: ¿El hecho de que los ciclos que más explican la varianza sean los de período 3 puede ir de la mano con lo que indicaba Lucca de que entran deudores a los 3 meses (2+1)? Esto puede estar bueno comentarlo acá, así como al inicio del documento, para dar un fundamento teórico al hallazgo.

4.2.3 Contrastes de Raíces Unitarias

Se procedió a llevar los contrastes de Dickey-Fuller Aumentado y KPSS a efectos de determinar si es necesaria la aplicación de una Segunda Diferencia Regular en la serie.

4.2.3.1 Dickey-Fuller Aumentado

En primera instancia se planteó el contraste seleccionando la cantidad de rezagos por medio de Criterios de Información (AIC y BIC) lo que resulta en la elección de \(p = 1\). Con dicha cantidad de rezagos los residuos no se encuentran autocorrelacionados, por lo que, al contrario de la aplicación del contraste en la serie original, no se realiza el ensayo con otros lags.

Regresión del Test de Dickey-Fuller Aumentado
Characteristic Beta 95% CI p-value
(Intercept) 4,197 2,494, 5,900 <0.001
z.lag.1 -1.9 -2.3, -1.5 <0.001
z.diff.lag 0.42 0.19, 0.65 <0.001
Abbreviation: CI = Confidence Interval
Resultados del Test de Dickey-Fuller Aumentado
Estadístico VC.1. VC.5. VC.10.
tau2 (con constante) -10.23177 -3.51 -2.89 -2.58
phi1 52.41887 6.70 4.71 3.86

Del contraste de Dickey-Fuller aumentado se concluye que:

  • Se rechaza la Hipótesis Nula de que la Serie presente una raíz unitaria en todos los niveles de significación planteados. De esta manera se tiene un respaldo estadístico para continuar trabajando con la serie diferenciada, en el sentido de que la misma sea estacionaria.

4.2.3.2 KPSS

En segunda instancia se plantea el Contraste KPSS, lo que resulta en el no rechazo de la Hipótesis Nula de que la serie sea Integrada de Orden \(0\), lo que nuevamente da un respaldo estadístico para continuar trabajando con la serie diferenciada, sin aplicar una Segunda Diferencia Regular (\(d = 2\)).

Resultados del Test KPSS (con constante)
Item Valor
Estadístico de Test 0.2987105
Valor Crítico 10% 0.3470000
Valor Crítico 5% 0.4630000
Valor Crítico 2.5% 0.5740000
Valor Crítico 1% 0.7390000

4.3 Serie Diferenciada de acuerdo a Diferencias Estacionales

4.3.1 Primera Diferencia Estacional de Período 3

En este caso corresponde observar la FAC y FACP en los múltiplos de \(3\). Se observa la significación tanto del primer coeficiente de autocorrelación como de autocorrelación parcial, lo que sugiere la utilización de \((P = 1, D = 1, Q = 0)[3]\) o \((P = 0, D = 1, Q = 1)[3]\) para la parte estacional de un primer modelo \(\text{SARIMA}\).

En el Análisis en el Dominio de Frecuencias es posible observar como la Primera Diferencia Regular en conjunto con la Primera Diferencia Estacional de período 3 disminuyen el peso de las frecuencias asociadas a la tendencia así como a los ciclos de período 3 en la explicación de la variabilidad de la serie.

Sin embargo, se realza de forma notoria el peso de las frecuencias más altas (\(\omega = \pi\), cuyo período es de 2 meses) y, en menor medida, de las frecuencias próximas a \(\omega = 1.2\) asociadas a ciclos de período 5.

4.3.2 Primera Diferencia Estacional de Período 12

En este caso corresponde observar la FAC y FACP en los múltiplos de \(12\). De forma similar al punto anterior, se observa la significación tanto del primer coeficiente de autocorrelación como de autocorrelación parcial, lo que sugiere la utilización de \((P = 1, D = 1, Q = 0)[12]\) o \((P = 0, D = 1, Q = 1)[12]\) para la parte estacional de un primer modelo \(\text{SARIMA}\).

En el Análisis en el Dominio de Frecuencias es posible observar como la Primera Diferencia Regular en conjunto con la Primera Diferencia Estacional de Período 12 resultan en un Periodograma Suavizado semejante al de un Ruido Blanco, por lo que no se destaca ninguna frecuencia en particular a la hora de explicar la variabilidad de la serie resultante.

5 Modelos Finales Propuestos

A continuación, se presentan los dos modelos \(\text{SARIMA}\) finalistas seleccionados para la serie temporal. Cada uno ha sido ajustado con intervención de valores atípicos y sometido a un riguroso proceso de diagnóstico.

5.1 Modelo 1: SARIMA(6,1,0)(1,1,0)[3] con Intervención de Atípicos

5.1.1 Procedimiento de Obtención del Modelo

Se partió de un modelo \(\text{SARIMA}(2,1,0)(1,1,0)[3]\) de acuerdo a lo expuesto en el análisis de la FAC y FACP desarrollado previamente3:

  • Dos coeficientes significativos en la FACP de la serie diferenciada, así como el rápido decaimiento de la FAC de la misma determinan el uso de \(p = 2\).

  • Los coeficientes significativos de la FAC y FACP de la serie diferencianda estacionalmente (con período 3) en el tercer retardo determinan el uso de \(P = 1\).

El modelo resultante presenta el coeficiente \(\phi_2\) de la parte \(\text{AR}\) regular no significativo razón por la que se disminuye el orden de dicha parte del modelo.

Coeficientes del Modelo SARIMA(2,1,0)(1,1,0)[3]
Characteristic Beta 95% CI
ar1 -0.30 -0.54, -0.06
ar2 -0.19 -0.43, 0.05
sar1 -0.47 -0.68, -0.26
Abbreviation: CI = Confidence Interval
Criterios de Información del Modelo Inicial
AIC AICc BIC
1412.342 1412.967 1421.278

Una primera observación de los residuos estandarizados indicó la presencia de outliers. A su vez, se rechazó la Hipótesis Nula de Normalidad en los contrastes de Shapiro-Wilk y Jarque-Bera. En principio se decidió intervenir un único anómalo:

  • Outlier Aditivo en Setiembre de 2019.

Lo que resultó en la pérdida de la significación del coeficiente \(\phi_1\) en la parte regular. Observando la FAC y FACP de los residuos se decidió incrementar el orden del \(\text{AR}\) a \(p = 6\), resultando en:

No obstante, dado el gráfico de residuos estandarizados y las continuos rechazos de la Hipótesis Nula en los contrastes de normalidad se debió incorporar, gradualmente, intervenciones por los siguientes puntos anómalos:

  • Outlier Aditivo en Setiembre de 2019.

  • Cambio Transitorio en Diciembre de 2019.

  • Outlier Aditivo en Diciembre de 2021.

  • Outlier Aditivo en Febrero de 2023.

  • Cambio Transitorio en Octubre de 2023.

  • Cambio Transitorio en Junio de 2024.

La incorporación de estos outliers resultó en la significación del coeficiente \(\phi_3\) de la parte regular al 5%, manteniéndose la significación del coeficiente \(\phi_6\) a todos los niveles usuales, por lo que el orden del modelo no debió ser cambiado.

5.1.2 Ajuste del Modelo Final

Finalmente se estima el siguiente modelo:

Coeficientes del Modelo SARIMA(6,1,0)(1,1,0)[3]
Characteristic Beta 95% CI
ar1 0.00
ar2 0.00
ar3 0.31 0.05, 0.57
ar4 0.00
ar5 0.00
ar6 -0.45 -0.71, -0.18
sar1 -0.86 -0.99, -0.72
AO10 16,635 13,447, 19,822
TC13 19,195 15,234, 23,155
AO37 10,497 7,524, 13,470
AO51 5,385 2,243, 8,526
AO57 8,890 5,827, 11,954
TC59 -10,077 -14,008, -6,146
TC67 -12,578 -17,134, -8,022
Abbreviation: CI = Confidence Interval

5.1.3 Criterios de Información y Medidas de Error

Se observa mejoras en los tres criterios de información utilizados respecto al modelo original:

Criterios de Información del Modelo 1
AIC AICc BIC
1304.036 1308.667 1328.611
Medidas de Error del Modelo 1
ME RMSE MAE MPE MAPE MASE ACF1
Training set 240.8004 2501.118 2013.735 0.0573216 0.5087128 0.0808879 0.1083491

5.1.4 Diagnóstico de Residuos

Los residuos presentaron un buen comportamiento, evidenciado por la FAC y FACP asociada, donde no se observa ningún coeficiente significativo, así como p-valores del Contraste de Ljung-Box superiores, en general, al 5%.

5.1.4.1 Test de Ljung-Box

Test de Ljung-Box para Residuos del Modelo 1 (Rezagos 3-24)
statistic p.value parameter method
1.872744 0.0000000 0 Box-Ljung test
1.905596 0.1674533 1 Box-Ljung test
2.892531 0.2354479 2 Box-Ljung test
2.892580 0.4084855 3 Box-Ljung test
4.902801 0.2974169 4 Box-Ljung test
8.624958 0.1249913 5 Box-Ljung test
9.082094 0.1690135 6 Box-Ljung test
11.632557 0.1133085 7 Box-Ljung test
13.707391 0.0897183 8 Box-Ljung test
14.049415 0.1205783 9 Box-Ljung test
16.138178 0.0957446 10 Box-Ljung test
16.235716 0.1326031 11 Box-Ljung test
16.571073 0.1664567 12 Box-Ljung test
16.926474 0.2026871 13 Box-Ljung test
21.923912 0.0801914 14 Box-Ljung test
23.514688 0.0738067 15 Box-Ljung test
26.509326 0.0472697 16 Box-Ljung test
27.775214 0.0476343 17 Box-Ljung test
28.146042 0.0598673 18 Box-Ljung test
29.278036 0.0617357 19 Box-Ljung test
30.323269 0.0647822 20 Box-Ljung test
32.208296 0.0557669 21 Box-Ljung test

5.1.4.2 Análisis de Normalidad y Homocedasticidad

El comportamiento de los residuos estandarizados fue satisfactorio y no se rechazó la Hipótesis Nula en los contrastes de normalidad de Shapiro-Wilk y Jarque-Bera, por lo que no se requirió intervenciones adicionales. No obstante, corresponde destacar que se realizó 7 intervenciones, lo que implicó denotar como outliers a casí el 10% de los datos disponibles en la muestra.

Tests de Normalidad para Residuos del Modelo 1
Test statistic p.value method parameter
Shapiro-Wilk 0.9895759 0.8140461 Shapiro-Wilk normality test NA
Jarque-Bera 1.0540676 0.5903535 Jarque Bera Test 2

Respecto al supuesto de homocedasticidad los resultados fueron satisfactorios. Tanto la FAC y FACP del cuadrado de los residuos presentan un coeficiente significativo en el sexto rezago, lo que no se considera problemático dado que apenas sobrepasa la banda de confianza sumado a los buenos resultados del Contraste de Ljung-Box sobre el cuadrado de los residuos.

Test de Ljung-Box para el Cuadrado de los Residuos del Modelo 1 (Rezagos 3-24)
statistic p.value parameter method
0.7040486 0.0000000 0 Box-Ljung test
2.0642733 0.1507868 1 Box-Ljung test
2.4134472 0.2991759 2 Box-Ljung test
7.1771951 0.0664594 3 Box-Ljung test
7.2020622 0.1255877 4 Box-Ljung test
7.5332596 0.1839040 5 Box-Ljung test
7.6006266 0.2688461 6 Box-Ljung test
8.5245124 0.2886188 7 Box-Ljung test
9.2688971 0.3201225 8 Box-Ljung test
9.8456058 0.3631284 9 Box-Ljung test
10.3786843 0.4079214 10 Box-Ljung test
10.3814067 0.4964405 11 Box-Ljung test
10.4630245 0.5754086 12 Box-Ljung test
12.1277515 0.5171971 13 Box-Ljung test
12.7137018 0.5491806 14 Box-Ljung test
14.4620173 0.4908162 15 Box-Ljung test
14.9070814 0.5314543 16 Box-Ljung test
15.8309961 0.5358459 17 Box-Ljung test
15.8683524 0.6017346 18 Box-Ljung test
16.2391079 0.6412696 19 Box-Ljung test
16.4017713 0.6914071 20 Box-Ljung test
19.4063772 0.5590889 21 Box-Ljung test

5.1.5 Predicción

Se realiza predicciones para los meses de Enero, Febrero y Marzo de 2025, a efectos de contrastarla con las tres observaciones que no se utilizaron a la hora de ajustar el modelo.

También se realiza predicciones para el 2024 y los primeros tres meses de 2025, utilizando el mismo modelo propuesto pero entrenándolo con las observaciones disponibles hasta diciembre de 2023.

5.1.6 Comentarios Finales

Respecto al modelo \(\text{SARIMA}(6,1,0)(1,1,0)[3]\) se debe tener en cuenta que:

  • Se logra el no rechazo de los Contrastes de Normalidad utilizando siete intervenciones por atípicos, lo que dada la baja cantidad de observaciones disponibles puede resultar un número no deseable.

  • El supuesto de residuos no autocorrelacionados puede no estar cumpliéndose, tal y como se refleja en el resultado del Contraste de Ljung-Box para los rezagos 18 y 19.

No obstante lo anterior, esta modelización presenta los siguientes puntos a destacar:

  • Dado que no se presenta problemas de homocedasticidad y a que, como se había mencionado al principio del presente trabajo, la transformación logarítmica no logra homogeneizar la Varianza de la serie, se descarta la aplicación de dicha transformación.

5.2 Modelo 2: SARIMA(2,1,0)(1,1,0)[12] con Intervención de Atípicos

El segundo modelo explora una estacionalidad anual (período 12).

5.2.1 Procedimiento de Obtención del Modelo

Se partió de un Modelo \(\text{SARIMA}(3,1,0)(0,0,0)[12]\) de acuerdo a lo expuesto en el análisis de la FAC y FACP desarrollado previamente. En particular, se había identificado:

  • Coeficientes significativos en la FAC y FACP en el tercer rezago, así como significativos y con decaimiento a medida que aumenta el rezago en los que resultan múltiplos de 3. De esta manera se desprende utilizar \(p = 3\) con \(\phi_1 = \phi_2 = 0\).

  • Los coeficientes significativos de la FAC y FACP de la serie diferenciada estacionalmente (con período 12) en el doceavo retardo determinan el uso de \(P = 1\) o \(Q = 1\).

Si bien se resalta la existencia de un componente estacional a modelar se decide no hacerlo priorizando la identificación de puntos anómalos4.

El modelo resultante presenta el coeficiente \(\phi_3\) de la parte \(\text{AR}\) significativo a todos los niveles de significación usuales5. El modelo ajustado resultante es:

Coeficientes del Modelo SARIMA(3,1,0)(0,0,0)[12]
Characteristic Beta 95% CI
ar1 0.00
ar2 0.00
ar3 0.52 0.32, 0.72
Abbreviation: CI = Confidence Interval
Criterios de Información del Modelo Inicial
AIC AICc BIC
1472.034 1472.208 1476.587

Una primera observación de los residuos estandarizados indicó la presencia de outliers. A su vez, se rechazó la Hipótesis Nula de Normalidad en los contrastes de Shapiro-Wilk y Jarque-Bera, lo que motivó la intervención de los siguientes puntos anómalos:

  • Outlier Aditivo en Setiembre de 2019.

  • Cambio Transitorio en Diciembre de 2019.

  • Cambio Transitorio en Diciembre de 2021.

  • Outlier Aditivo en Febrero de 2023.

  • Cambio Transitorio en Octubre de 2023.

  • Cambio Transitorio en Junio de 2024.

Recuérdese que se había planteado durante la inspección inicial de la serie la posibilidad de que hubieran observaciones atípicas a fines de los años 2019, 2021 y 2023, lo que es consistente con el resultado anterior6

Si bien la cantidad de outliers intervenidos supera el la proporción límite, arbitraria pero recomendada, de intervenciones (9.5% contra 5%), tiene como resultado el cumplimiento de varios supuestos en la etapa de diagnóstico, aunque requiriendo previamente la redefinición del modelo.

Realizadas las intervenciones se modela la estacionalidad, por medio de \(P=1\) o \(Q=1\), en base a los observaciones realizadas sobre la FAC y FACP de la serie resultante de aplicar la Primera Diferencia Regular y Estacional de período 12. Como resultado se pierde la significación del coeficiente \(\phi_3\) de la parte regular, lo que motiva la redefinición del modelo en un \(\text{SARIMA}(2,1,0)(1,1,0)[12]\).

Por un lado, en la parte regular no resulta significativo el coeficiente \(\phi_1\), por lo que se lo fijó en \(0\). Por otro lado, en la parte estacional se decidió utilizar \(P=1,D=1,Q=0\) en vez de \(P=0,D=1,Q=1\) dado que el coeficiente de la parte \(\text{AR}\) asociado a la primera modelización presenta un menor p-valor que el coeficiente de la parte \(\text{MA}\) de la segunda7.

5.2.2 Ajuste del Modelo Final

Se estima, finalmente, el siguiente modelo:

Coeficientes del Modelo SARIMA(2,1,0)(1,1,0)[12]
Characteristic Beta 95% CI
ar1 0.00
ar2 0.44 0.19, 0.68
sar1 -0.48 -0.77, -0.18
AO10 19,189 15,603, 22,774
TC13 17,394 12,412, 22,375
TC37 11,534 7,658, 15,411
AO51 5,588 2,536, 8,641
AO57 7,679 4,470, 10,888
TC59 -11,055 -15,436, -6,674
TC67 -13,023 -17,763, -8,283
Abbreviation: CI = Confidence Interval

5.2.3 Criterios de Información y Medidas de Error

Como resultado se obtiene una disminución significativa en los tres Criterios de Información utilizados:

Criterios de Información del Modelo 2
AIC AICc BIC
1140.64 1145.13 1161.583
Medidas de Error del Modelo 2
ME RMSE MAE MPE MAPE MASE ACF1
Training set 312.1445 2426.677 1788.985 0.0756968 0.4437388 0.0718602 0.1243762

5.2.4 Diagnóstico de Residuos

A su vez los residuos presentan un buen comportamiento evidenciado por la FAC y FACP de los mismos, donde no hay coeficientes de autocorrelación ni autocorrelación parcial que resulten significativos.

5.2.4.1 Test de Ljung-Box

No obstante, los p-valores asociados al contraste de Ljung-Box resultan particularmente bajos, lo que sugiere que esta modelización puede estar incumpliendo el supuesto de residuos no autocorrelacionados.

Test de Ljung-Box para Residuos del Modelo 2 (Rezagos 3-24)
statistic p.value parameter method
3.459295 0.0628971 1 Box-Ljung test
3.641430 0.1619099 2 Box-Ljung test
3.661083 0.3004632 3 Box-Ljung test
3.699865 0.4481456 4 Box-Ljung test
4.881545 0.4305072 5 Box-Ljung test
9.455915 0.1495143 6 Box-Ljung test
11.753917 0.1089474 7 Box-Ljung test
13.514617 0.0953274 8 Box-Ljung test
13.576219 0.1382186 9 Box-Ljung test
14.198213 0.1641410 10 Box-Ljung test
14.457810 0.2086876 11 Box-Ljung test
16.908923 0.1530555 12 Box-Ljung test
17.376912 0.1826417 13 Box-Ljung test
17.399233 0.2355262 14 Box-Ljung test
22.060736 0.1062212 15 Box-Ljung test
26.680955 0.0451684 16 Box-Ljung test
26.696860 0.0626660 17 Box-Ljung test
27.235937 0.0746753 18 Box-Ljung test
28.638476 0.0718885 19 Box-Ljung test
29.901701 0.0714622 20 Box-Ljung test
30.064338 0.0907027 21 Box-Ljung test
31.505574 0.0862249 22 Box-Ljung test

5.2.4.2 Análisis de Normalidad y Homocedasticidad

Los Contrastes de Normalidad resultan en el no rechazo de la correspondiente Hipótesis Nula, por lo que no se dispone de evidencia estadísticamente significativa de que los residuos no se distribuyan de acuerdo a una Distribución Gaussiana.

Tests de Normalidad para Residuos del Modelo 2
Test statistic p.value method parameter
Shapiro-Wilk 0.9863716 0.6212044 Shapiro-Wilk normality test NA
Jarque-Bera 0.7470338 0.6883094 Jarque Bera Test 2

Finalmente, a efectos de evaluar el cumplimiento del supuesto de Homocedasticidad o Varianza Constante, se planteó el contraste de Ljung-Box así como la FAC y FACP del cuadrado de los residuos. En el primero se observa la significación de los coeficientes de autocorrelación y autocorrelación parcial de orden 6, lo que sugiere el incumplimiento del supuesto. No obstante, los resultados del contraste de Ljung-Box hacen que se desestime esta idea.

Test de Ljung-Box para el Cuadrado de los Residuos del Modelo 2 (Rezagos 3-24)
statistic p.value parameter method
3.459295 0.0628971 1 Box-Ljung test
3.641430 0.1619099 2 Box-Ljung test
3.661083 0.3004632 3 Box-Ljung test
3.699865 0.4481456 4 Box-Ljung test
4.881545 0.4305072 5 Box-Ljung test
9.455915 0.1495143 6 Box-Ljung test
11.753917 0.1089474 7 Box-Ljung test
13.514617 0.0953274 8 Box-Ljung test
13.576219 0.1382186 9 Box-Ljung test
14.198213 0.1641410 10 Box-Ljung test
14.457810 0.2086876 11 Box-Ljung test
16.908923 0.1530555 12 Box-Ljung test
17.376912 0.1826417 13 Box-Ljung test
17.399233 0.2355262 14 Box-Ljung test
22.060736 0.1062212 15 Box-Ljung test
26.680955 0.0451684 16 Box-Ljung test
26.696860 0.0626660 17 Box-Ljung test
27.235937 0.0746753 18 Box-Ljung test
28.638476 0.0718885 19 Box-Ljung test
29.901701 0.0714622 20 Box-Ljung test
30.064338 0.0907027 21 Box-Ljung test
31.505574 0.0862249 22 Box-Ljung test

5.2.5 Predicción

Se realiza predicciones para los meses de Enero, Febrero y Marzo de 2025, a efectos de contrastarla con las tres observaciones que no se utilizaron a la hora de ajustar el modelo.

También se realiza predicciones para el 2024 y los primeros tres meses de 2025, utilizando el mismo modelo propuesto pero entrenándolo con las observaciones disponibles hasta diciembre de 2023.

5.2.6 Comentarios Finales

Respecto al modelo \(\text{SARIMA}(2,1,0)(1,1,0)[12]\) se debe tener en cuenta que:

  • Se logra el no rechazo de los Contrastes de Normalidad utilizando siete intervenciones por atípicos, lo que dada la baja cantidad de observaciones disponibles puede resultar un número no deseable.

  • El supuesto de residuos no autocorrelacionados puede no estar cumpliéndose, tal y como se refleja en el resultado del Contraste de Ljung-Box para el rezago 18.

No obstante lo anterior, esta modelización presenta los siguientes puntos a destacar:

  • El modelo \(\text{SARIMA}\) resultante es de bajo orden, lo que va de la mano con la idea de que los modelos de este tipo sean los mejores a la hora de predecir, además de resultar más parcimoniosos.

  • Dado que no se presenta problemas de homocedasticidad y a que, como se había mencionado al principio del presente trabajo, la transformación logarítmica no logra homogeneizar la Varianza de la serie, se descarta la aplicación de dicha transformación.

5.3 Modelo 3: SARIMA(10,1,0)(0,1,1)[12] con Intervención de Atípicos

El tercer modelo finalista vuelve a explorar la estacionalidad anual, pero con una estructura autorregresiva de orden mayor.

5.3.1 Detección y Tratamiento de Atípicos

5.3.2 Ajuste del Modelo

Coeficientes del Modelo SARIMA(10,1,0)(0,1,1)[12]
Characteristic Beta 95% CI
ar1 0.00
ar2 0.44 0.22, 0.67
ar3 0.00
ar4 0.00
ar5 0.00
ar6 0.00
ar7 0.00
ar8 0.54 0.32, 0.75
ar9 0.00
ar10 -0.45 -0.68, -0.21
sma1 -0.58 -0.94, -0.21
AO10 18,873 15,972, 21,774
TC13 15,882 12,093, 19,670
AO37 9,092 6,569, 11,616
AO57 7,980 5,154, 10,807
TC59 -13,394 -17,310, -9,479
TC67 -12,837 -17,488, -8,185
Abbreviation: CI = Confidence Interval

5.3.3 Criterios de Información y Medidas de Error

Criterios de Información del Modelo 3
AIC AICc BIC
1136.328 1141.828 1159.366
Medidas de Error del Modelo 3
ME RMSE MAE MPE MAPE MASE ACF1
Training set 263.9743 2186.251 1626.414 0.0633685 0.403833 0.06533 0.0795584

5.3.4 Diagnóstico de Residuos

5.3.4.1 Test de Ljung-Box

Test de Ljung-Box para Residuos del Modelo 3 (Rezagos 3-24)
statistic p.value parameter method
1.248107 NaN -1 Box-Ljung test
1.411975 0.0000000 0 Box-Ljung test
6.263667 0.0123239 1 Box-Ljung test
7.078768 0.0290312 2 Box-Ljung test
7.104869 0.0686293 3 Box-Ljung test
7.106165 0.1303831 4 Box-Ljung test
12.430543 0.0293416 5 Box-Ljung test
12.477901 0.0521182 6 Box-Ljung test
12.821984 0.0765663 7 Box-Ljung test
12.991337 0.1121480 8 Box-Ljung test
13.043489 0.1606483 9 Box-Ljung test
18.871069 0.0419312 10 Box-Ljung test
19.570506 0.0515905 11 Box-Ljung test
20.505001 0.0581160 12 Box-Ljung test
22.157453 0.0529697 13 Box-Ljung test
22.398485 0.0707889 14 Box-Ljung test
24.433773 0.0580840 15 Box-Ljung test
25.883952 0.0556831 16 Box-Ljung test
25.990864 0.0746271 17 Box-Ljung test
26.183989 0.0956249 18 Box-Ljung test
26.908453 0.1068036 19 Box-Ljung test
28.880643 0.0901363 20 Box-Ljung test

5.3.4.2 Análisis de Homocedasticidad y Normalidad

Tests de Normalidad para Residuos del Modelo 3
Test statistic p.value method parameter
Shapiro-Wilk 0.9855588 0.5723519 Shapiro-Wilk normality test NA
Jarque-Bera 0.7247933 0.6960062 Jarque Bera Test 2

5.3.5 Predicción

Finalmente, se realiza una predicción para los próximos 3 meses.

5.4 Comparación de Modelos SARIMA

Footnotes

  1. En el presente trabajo se utilizará como sinónimos “estacionariedad en sentido débil”, “estacionariedad en covarianza” y “estacionariedad”, al igual que se hizo durante el desarrollo del curso.↩︎

  2. Corresponde resaltar, sin embargo, que la relación entre el área que se encuentra por debajo del Espectro/Periodograma y la Varianza de la serie se plantea para series estacionarias, propiedad que claramente no caracteriza a la serie en análisis.↩︎

  3. Si bien se pudo haber considerado un \(\text{SARIMA}(2,1,0)(0,1,1)[3]\), la significación de ambos coeficientes de la parte regular se perdía, por lo que se prefirió continuar con el Modelo \(\text{SARIMA}(2,1,0)(1,1,0)[3]\)↩︎

  4. La utilización de las funciones de detección de anómalos cuando se incluye las estacionalidades produce advertencias de llegar al número máximo de iteraciones, junto con una cantidad de puntos anómalos sugeridos superior a 10, lo que constituye los motivos para indagar sobre los atípicos previo a modelar la estacionalidad.↩︎

  5. Se probó ajustar el modelo sin forzar \(\phi_1 = \phi_2 = 0\), no resultando significativos \(\phi_1\) y \(\phi_2\), razón por la que se los dejó fijos en \(0\)↩︎

  6. Se utilizó el paquete tso a efectos de identificar los outliers y su tipo.↩︎

  7. La utilización de un \(\text{AR}(1)\) o \(\text{MA}(1)\) en la parte estacional produce modelos con Criterios de Información prácticamente iguales.↩︎